子树|损失_55决策树的剪枝算法

作者：粉笔画1995_996 | 来源：互联网 | 2023-09-25 00:52

篇首语：本文由编程笔记#小编为大家整理，主要介绍了5-5决策树的剪枝算法相关的知识，希望对你有一定的参考价值。树的剪枝算法输入：

篇首语：本文由编程笔记#小编为大家整理，主要介绍了5-5 决策树的剪枝算法相关的知识，希望对你有一定的参考价值。

树的剪枝算法

输入&＃xff1a;
ID3或C4.5的决策树
参数a
输出&＃xff1a;
剪枝后的决策树 $T_a$

递归版本

从树的根结点开始
如果该结点的孩子中存在子树&＃xff08;不全是叶子结点&＃xff09;&＃xff0c;则先对子树做prune
所有子树都prune之后&＃xff0c;再判断该结点的孩子是否都是叶子
如果不全是叶子&＃xff0c;对该结点的算法结束
如果该结点的孩子都是叶子&＃xff0c;则尝试对该结点剪枝
5.a 计算 $C_a(T_B)$ &＃xff0c;代表该结点split后以该结点为根结点的子树的损失&＃xff0c;其损失的计算方式与整棵树的计算方式相同
$C_a(T_B) &＃61; \\sum^|T|N_tH_t(T) &＃43; a|T|$
因此在生成树的时候为每个叶子结点保存它的 $N_t$ 和 $H_t$
5.b 计算 $C_a(T_A)$ &＃xff0c;代表该结点split之前作为一个叶子结点时的熵。因此在生成树时记录该split之前的熵
5.c 比较 $C_a(T_B)$ 和 $C_a(T_A)$ &＃xff0c;如果 $C_a(T_A)\\le C_a(T_B)$ &＃xff0c;则将该结点修改为叶子结点。即&＃xff1a;计算该结点的输出标记&＃xff0c;并删除它的所有孩子结点。
对该结点的处理结束&＃xff0c;由于这个算法是递归调用的&＃xff0c;如果该结点有父结点&＃xff0c;则要继续处理它的父结点。

def isTree(Node): return &＃39;child&＃39; in Node.keys() def Clip(Node): bestNt &＃61; 0 for value in Node[&＃39;child&＃39;]: if Node[&＃39;child&＃39;][value][&＃39;Nt&＃39;] > bestNt: bestNt &＃61; Node[&＃39;child&＃39;][value][&＃39;Nt&＃39;] bestLabel &＃61; Node[&＃39;child&＃39;][value][&＃39;label&＃39;] Node[&＃39;label&＃39;] &＃61; bestLabel Node.pop(&＃39;child&＃39;) def Merge(Node, alpha): # 计算CaTb CT_b &＃61; 0 for value in Node[&＃39;child&＃39;]: CT_b &＃61; CT_b &＃43; Node[&＃39;child&＃39;][value][&＃39;Nt&＃39;] * Node[&＃39;child&＃39;][value][&＃39;entropy&＃39;] &＃43; alpha # 计算CaTa CT_a &＃61; Node[&＃39;entropy&＃39;] &＃43; alpha # 剪枝的条件 if CT_a <&＃61; CT_b: Clip(Node) def prune(Node, alpha): # 判断子结点中是否存在树 for value in Node[&＃39;child&＃39;]: # 如果存在树 if isTree(Node[&＃39;child&＃39;][value]): # 先对树子结点做prune prune(Node[&＃39;child&＃39;][value], alpha) # 对所有子树都prune之后&＃xff0c;判断是否所有子树都是叶子 isAllLeaf &＃61; True for value in Node[&＃39;child&＃39;]: if isTree(Node[&＃39;child&＃39;][value]): isAllLeaf &＃61; False break # 如果所有子树都是叶子 if isAllLeaf: # 尝试对结点做剪枝 Merge(Node, alpha)

DP版本

【&＃xff1f;】如何通过DP实现

推荐阅读

uml
在范围[0..n-1]中产生m个不同的随机数 - Generating m distinct random numbers in the range [0..n-1]

Ihavetwomethodsofgeneratingmdistinctrandomnumbersintherange[0..n-1]我有两种方法在范围[0.n-1]中生 ... [详细]

蜡笔小新 2024-11-13 09:49:14
tree
机器学习的持续探索与进展

在机器学习领域，深入探讨了概率论与数理统计的基础知识，特别是这些理论在数据挖掘中的应用。文章重点分析了偏差（Bias）与方差（Variance）之间的平衡问题，强调了方差反映了不同训练模型之间的差异，例如在K折交叉验证中，不同模型之间的性能差异显著。此外，还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡，以提高模型的泛化能力。 ... [详细]

蜡笔小新 2024-11-11 10:27:39
import
Python 序列图分割与可视化编程入门教程

本文介绍了如何使用 Python 进行序列图的快速分割与可视化。通过一个实际案例，详细展示了从需求分析到代码实现的全过程。具体包括如何读取序列图数据、应用分割算法以及利用可视化库生成直观的图表，帮助非编程背景的用户也能轻松上手。 ... [详细]

蜡笔小新 2024-11-11 07:14:26
window
《Linux高性能服务器编程》深入解析：3.2 TCP报头结构与功能

在《Linux高性能服务器编程》一书中，第3.2节深入探讨了TCP报头的结构与功能。TCP报头是每个TCP数据段中不可或缺的部分，它不仅包含了源端口和目的端口的信息，还负责管理TCP连接的状态和控制。本节内容详尽地解析了TCP报头的各项字段及其作用，为读者提供了深入理解TCP协议的基础。 ... [详细]

蜡笔小新 2024-11-10 14:18:44
byte
Scala学习指南：从零开始掌握基础

本指南从零开始介绍Scala编程语言的基础知识，重点讲解了Scala解释器REPL（读取-求值-打印-循环）的使用方法。REPL是Scala开发中的重要工具，能够帮助初学者快速理解和实践Scala的基本语法和特性。通过详细的示例和练习，读者将能够熟练掌握Scala的基础概念和编程技巧。 ... [详细]

蜡笔小新 2024-11-07 18:07:59
php
在VSCode中添加自定义外部命令

通过将常用的外部命令集成到VSCode中，可以提高开发效率。本文介绍如何在VSCode中配置和使用自定义的外部命令，从而简化命令执行过程。 ... [详细]

蜡笔小新 2024-11-13 16:57:15
byte
浅析python实现布隆过滤器及Redis中的缓存穿透原理_python

本文带你了解了位图的实现，布隆过滤器的原理及Python中的使用，以及布隆过滤器如何应对Redis中的缓存穿透，相信你对布隆过滤 ... [详细]

蜡笔小新 2024-11-13 16:43:07
php
微软推出Windows Terminal Preview v0.10

微软近期发布了Windows Terminal Preview v0.10，用户可以在微软商店或GitHub上获取这一更新。该版本在2月份发布的v0.9基础上，新增了鼠标输入和复制Pane等功能。 ... [详细]

蜡笔小新 2024-11-12 16:15:56
php
微分方程相关笔记

Basic微分方程Whatis形如$F(x,y,y',,y^{(n)})0$求$yf(x,y)$阶：方程中导数的最高阶数解：yy(x)通解：\(yy(x,C ... [详细]

蜡笔小新 2024-11-12 00:47:38
tree
[BZOJ2654] Tree 问题：二分查找与 Kruskal 算法结合的优化解决方案

题目《BZOJ2654: Tree》的时间限制为30秒，内存限制为512MB。该问题通过结合二分查找和Kruskal算法，提供了一种高效的优化解决方案。具体而言，利用二分查找缩小解的范围，再通过Kruskal算法构建最小生成树，从而在复杂度上实现了显著的优化。此方法不仅提高了算法的效率，还确保了在大规模数据集上的稳定性能。 ... [详细]

蜡笔小新 2024-11-11 18:19:28
char
PTArchiver工作原理详解与应用分析

PTArchiver工作原理及其应用分析本文详细解析了PTArchiver的工作机制，探讨了其在数据归档和管理中的应用。PTArchiver通过高效的压缩算法和灵活的存储策略，实现了对大规模数据的高效管理和长期保存。文章还介绍了其在企业级数据备份、历史数据迁移等场景中的实际应用案例，为用户提供了实用的操作建议和技术支持。 ... [详细]

蜡笔小新 2024-11-11 13:40:49
import
Pandas 散点图矩阵（scatter_matrix）绘图功能及其参数详解

通过使用 `pandas` 库中的 `scatter_matrix` 函数，可以有效地绘制出多个特征之间的两两关系。该函数不仅能够生成散点图矩阵，还能通过参数如 `frame`、`alpha`、`c`、`figsize` 和 `ax` 等进行自定义设置，以满足不同的可视化需求。此外，`diagonal` 参数允许用户选择对角线上的图表类型，例如直方图或密度图，从而提供更多的数据洞察。 ... [详细]

蜡笔小新 2024-11-09 12:03:42
import
Python 开发笔记：深入探讨字符串及其常用方法与技巧

Python 开发笔记：深入探讨字符串及其常用方法与技巧 ... [详细]

蜡笔小新 2024-11-08 21:02:38
char
利用 ASP.NET 2.0 实现网站子域名功能详解

本文以 www.域名.com 为例，详细介绍如何为每个注册用户提供独立的二级域名，如 abc.域名.com。实现这一功能的核心步骤包括：首先，确保域名支持泛解析，即将 A 记录设置为 *.域名.com，以便将所有二级域名请求指向同一服务器。接着，在服务器端使用 ASP.NET 2.0 进行配置，通过解析 HTTP 请求中的主机头信息，动态识别并处理不同的二级域名，从而实现个性化内容展示。此外，还需在数据库中维护用户与二级域名的对应关系，确保每个用户的二级域名都能正确映射到其专属内容。 ... [详细]

蜡笔小新 2024-11-08 15:43:01
tree
在Ubuntu上安装MySQL时解决缺少libaio.so.1错误及libaio在MySQL中的重要性分析

在Ubuntu系统上安装MySQL时，遇到了缺少libaio.so.1的错误。本文详细介绍了如何解决这一问题，并深入探讨了libaio库在MySQL性能优化中的重要作用。对于初学者而言，理解这些依赖关系和配置步骤是成功安装和运行MySQL的关键。通过本文的指导，读者可以顺利解决相关问题，并更好地掌握MySQL在Linux环境下的部署与管理。 ... [详细]

蜡笔小新 2024-11-08 11:19:54

粉笔画1995_996

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章